分析大会用データ

分析大会で利用するのは新型コロナウィルスに関するデータです。以下から任意に選択してください。すべてオンラインにてデータが取得できます。

データ名 区分 種別 ダウンロード 備考
厚生労働省オープンデータ 公開 集計 項目単位で集計したものを個別ファイルで公開
JAG Japan 公開 個別 GIS処理用データ付き
Covid19japan.com 公開 個別 GitHubにてJSON形式で公開

 
その他、任意のデータを用いても構いませんが利用したデータの出典と概要説明を明記してください。

データ概略

厚生労働省オープンデータ(集計/公開・公式)

河野行政改革担当大臣またはデジタル庁(仮称)に期待。

厚生労働省オープンデータの注意点

厚生労働省のデータは各報告日時点の集計値が個別ファイルになっていますので、意味を把握してから分析してください。

データ名 概要
陽性者数 新規に陽性と判断された者の数(除く空港検疫)
PCR検査実施人数 当日と前日の累積人数の差(除く空港検疫)
入院治療等を要する者の数 入院待機中・確認中を除く(除く空港検疫)
退院又は治療解除となった者の数 (除く空港検疫)
死亡者数 (除く空港検疫)
PCR検査の実施件数 暫定数値であり後日変更される可能性あり

JAG Japan (個別/公開・非公式)

日本国内の各サイトから収集・整理して公開しているデータ。

JAG Japan データの注意点

特徴的なのはW列(23列)目以降にGIS処理用の変量(フィーチャー)が用意されている点です。これらの変量は分析には必要ありませんので、削除しておくことをおすゝめします。また、インスタンスには多数の揺れが含まれている点に注意してください。

なお、読み込み時は以下のオプションを指定しないとWinodws環境ではエラーになります。

  readr::read_csv(locale = readr::locale(encoding = "UTF-8"), guess_max = 5000)

各列(変量)の定義は こちら で公開されています。

Covid19japan.com(個別/公開・非公式)

Exploratory EDA Salonにあるデータのオリジナル。JSON形式で公開されている。

Covid19japan.com データの注意点

GitHub からjsonliteパッケージを利用して以下のコードで読み込んでください。readr::read_csv関数では正しく読み込めません。

library(jsonlite)
path <- "https://raw.githubusercontent.com/reustle/covid19japan-data/master/"
path <- paste0(path, "docs/patient_data/")

path %>% 
  paste0("latest.json") %>% 
  readr::read_lines() %>% 
  paste0(path, .) %>% 
  jsonlite::fromJSON()

pathの2行は表示用に分割しています。また、JAG Japanのデータと同様に揺れがあります。

データを扱う上でのポイントなど

  • tidyverseパッケージを必ずインストールしておいてください
    • readrならびにjsonliteパッケージはtidyverseパッケージに含まれます
  • CSVの読み込みにはreadr::read_csv関数を用います
    • ファイルにURLを指定すれば読み込むことができます
    • 文字化けする場合はlocaleオプションを指定してください
    • Warningなどが表示された場合は必ず読んでください
  • 読み込んだデータは各列(変量)のデータ型を必ず確認してください
    • 特に文字(chr)型になっている変量には注意してください
  • 都道府県の地方区分を使う場合は こちら を使ってください
  • 提示コードはGoogle Colabでも動作確認済

おまけ

ネット上のデータを読み込むには

ネット上で公開されているファイルを読み込む場合はローカルファイルを読み込む場合と同様に指定すれば読み込めます。大抵の場合、UTF-8でエンコーディングされています。

url %>% 
  readr::read_csv(locale = readr::locale(encoding = "UTF-8"))

url は以下の形式で記述します。

 "https://server.domain/path/filename"

GitHubにあるファイルの場合は必ず「Raw」のパスを指定してください。

 "https://raw.githubusercontent.com/user/repo/branch/path/filename"

八地方区分

地方区分 含まれる都道府県
北海道 北海道
東北 青森県・岩手県・秋田県・宮城県・山形県・福島県
関東 茨城県・栃木県・群馬県・埼玉県・千葉県・東京都・神奈川県
中部 山梨県・長野県・新潟県・富山県・石川県・福井県・静岡県・愛知県・岐阜県
近畿 三重県・滋賀県・京都府・大阪府・兵庫県・奈良県・和歌山県
中国 鳥取県・島根県・岡山県・広島県・山口県
四国 香川県・愛媛県・徳島県・高知県
九州 福岡県・佐賀県・長崎県・熊本県・大分県・宮崎県・鹿児島県・沖縄県

地方区分を使った集計事例

一時期、かなり騒がれた「クラスタ」で感染し陽性と判断された割合がどの程度なのかを地方毎にクロス集計してみました。中国・四国地方を除くと結果的にはクラスタ感染を押さえられたと言えそうです。データ:Covid19.com

Enjoy!